我们提出了一个知情的基线,以帮助解散此类案例研究中影响的各种影响因素。为此,我们分析了给定的元数据与自我分配的人格特质分数之间的相关性,并仅基于该信息开发了模型。此外,我们将该知情基线的性能与基于最先进的视觉,语言和音频功能的模型进行了比较。对于本数据集,与简单的音频,语言或基于视觉功能的系统相比,仅根据简单的元数据功能(年龄,性别和会话数)进行了训练的模型。
translated by 谷歌翻译
动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近,越来越多的作品比跟踪“更深”,并解决了对动物内部状态(例如情绪和痛苦)的自动认识,目的是改善动物福利,这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查,并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类,从不同的维度进行分类,突出挑战和研究差距,并提供最佳实践建议,以推进该领域以及一些未来的研究方向。
translated by 谷歌翻译
在视频中自动识别有害内容是一项重要的任务,具有广泛的应用程序。但是,缺乏可用的专业标签开放数据集。在这项工作中,介绍了由专业人士注释的电影预告片的3589个视频片段的开放数据集。对数据集进行了分析,从而揭示了剪辑和拖车级别注释之间的关系。视听模型在数据集上进行了培训,并对进行的建模选择进行了深入研究。结果表明,通过结合视觉和音频方式,大规模视频识别数据集的预训练以及类平衡采样来大大提高性能。最后,使用歧视探测研究了受过训练的模型的偏差。Vidharm公开可用,并提供更多详细信息,请访问:https://vidharm.github.io。
translated by 谷歌翻译